home *** CD-ROM | disk | FTP | other *** search
/ Internet Info 1997 December / Internet_Info_CD-ROM_Walnut_Creek_December_1997.iso / ietf / urn / urn-archives / urn-ietf.archive.9611 / 000175_owner-urn-ietf _Fri Nov 15 13:42:31 1996.msg < prev    next >
Internet Message Format  |  1997-02-19  |  6KB

  1. Received: (from daemon@localhost) by services.bunyip.com (8.6.10/8.6.9) id NAA15446 for urn-ietf-out; Fri, 15 Nov 1996 13:42:31 -0500
  2. Received: from mocha.bunyip.com (mocha.Bunyip.Com [192.197.208.1]) by services.bunyip.com (8.6.10/8.6.9) with SMTP id NAA15437 for <urn-ietf@services.bunyip.com>; Fri, 15 Nov 1996 13:42:28 -0500
  3. Received: from josef.ifi.unizh.ch by mocha.bunyip.com with SMTP (5.65a/IDA-1.4.2b/CC-Guru-2b)
  4.         id AA29572  (mail destined for urn-ietf@services.bunyip.com); Fri, 15 Nov 96 13:41:39 -0500
  5. Received: from ifi.unizh.ch by josef.ifi.unizh.ch 
  6.           id <00924-0@josef.ifi.unizh.ch>; Fri, 15 Nov 1996 19:40:39 +0100
  7. Subject: Re: [URN] Re: I18N does not belong in URNs
  8. To: yergeau@alis.com
  9. Date: Fri, 15 Nov 1996 19:40:38 +0100 (MET)
  10. Cc: dgd@cs.bu.edu, urn-ietf@bunyip.com
  11. In-Reply-To: <2.2.32.19961115155024.007169c0@genstar.alis.ca> from "Francois Yergeau" at Nov 15, 96 10:50:24 am
  12. Mime-Version: 1.0
  13. Content-Type: text/plain; charset=US-ASCII
  14. Content-Transfer-Encoding: 7bit
  15. Content-Length: 4755
  16. From: Martin J Duerst <mduerst@ifi.unizh.ch>
  17. Message-Id: <"josef.ifi..890:15.10.96.18.40.40"@ifi.unizh.ch>
  18. Sender: owner-urn-ietf@services.bunyip.com
  19. Precedence: bulk
  20. Reply-To: Martin J Duerst <mduerst@ifi.unizh.ch>
  21. Errors-To: owner-urn-ietf@bunyip.com
  22.  
  23. Francois Yergeau wrote:
  24.  
  25. >I fail to see why the %-encoded URN should be the reference.  This is a
  26. >fallback to the bad old 7-bit days, and results in a needless waste of
  27. >bandwidth and storage resources. Reading the recent report of the IAB
  28. >Character Set Workshop (draft-weider-iab-char-wrkshop-00.txt)
  29.  
  30. It's nice to have this available finally.
  31.  
  32. >, I find in
  33. >section 8.2 (Recommendations for new Internet protocols):
  34. >
  35. >  "New protocols do not suffer from the need to be compatible
  36. >   with old 7-bit pipes. New protocol specifications SHOULD
  37. >   use ISO 10646 as the base charset unless there is an
  38. >   overriding need to use a different base charset."
  39.  
  40. That's indeed what we are doing. Pipe width and base charset are
  41. not directly related.
  42.  
  43. >Elsewhere (3.4.3), UTF-8 is recommended as the encoding and use of escape
  44. >mechanisms is warned against ("...must be weighed very carefully").
  45.  
  46. This warns against techniques such as SGML &#nnn;. %HH is not on
  47. the character level, it is on the octet level. And it is already
  48. well established for URLs.
  49.  
  50. >>   We can define the standard as %-encoded UTF-8, and if people implement
  51. >>this other ways, they are implementing convenience features in the
  52. >>interface: the software will always have the %-encoded URN available.
  53.  
  54. Much software will probably do so anyway, despite what the standard
  55. says, and without creating a conflict, because storing and comparing
  56. is more efficient on the 8-bit form.
  57.  
  58. >As if 8-bit octets on-the-wire were something evil!  It is much wiser, IMHO,
  59. >to have the real UTF-8 as the reference value, and have the %-encoding as
  60. >the convenience feature (it must be there anyway for reserved and unsafe
  61. >characters, so there is no risk that an application will not support it).
  62. >If a user needs ASCII-only, let *his* software do the %-encoding for him,
  63. >but let's not force a 9-byte encoding on CJK characters when 3 are enough.
  64. >
  65. >There should be a good reason to burden the whole world forever with
  66. >%-encoding of all 8-bit octets, and I see none at all, except for a visceral
  67. >and unwarranted fear of 8-bit octets.
  68.  
  69. I think we have to be careful, because there are at least two
  70. ways in which URNs can be transferred/stored:
  71.  
  72. - In "dedicated" protocols and databases. An example is the header
  73.     of an HTTP request.
  74.  
  75. - In text. An example is HTML.
  76.  
  77. For the former, raw 8-bit (i.e. UTF-8) can be used. According to
  78. the standards, officially HTTP headers are limited to ASCII, but
  79. in practice, they will pass 8 bits without problems. (If not,
  80. please don't make a long discussion out of this. It only serves
  81. as an example of a (part of) a protocol that up to now
  82. transmitted "raw" data without consideration to character set
  83. issues.
  84.  
  85. For the later, as Francois probably knows even better than I do
  86. from his work on URL internationalization, putting an URN with
  87. 10646 characters into a HTML document written in iso-8859-1
  88. in raw 8-bit form will produce bad results. Without extremely
  89. clever tool support, it will neither be possible to input
  90. such an URN, nor will an URN show up with the characters it
  91. represents. Transcoding, as well as other operations such as
  92. cut-and-paste, will also not do what everybody would hope for.
  93.  
  94. Just saying "use 8 bits, use 8 bits" could however give the
  95. impression to some implementors that the UTF-8 8-bit octets
  96. should appear as such in an HTML document in iso-8859-1.
  97.  
  98. Whatever we make the "standard" or "base" form, or whether
  99. we such a form or not, we should therefore clearly say that
  100. URNs
  101.  
  102. - Can be transmitted/stored in 8-bit form in protocols/databases
  103.     that accomodate URNs as such, and not as part of text
  104.     and/or associated with character encoding information.
  105. - Have to be interpreted and treated as characters when transmitted
  106.     as part of an encoded text with (explicitly or implicitly)
  107.     associated character encoding information. Those characters
  108.     that cannot be represented in the choosen encoding, as
  109.     well as %HH sequences that do not form valid UTF-8 sequences
  110.     (and of course reserved characters) have to stay in %HH form.
  111.  
  112. I know that the last point may again frighten some of you. It seems
  113. to introduce a new representation. But if you think about URLs in
  114. EBCDIC, you will see that it is nothing new.
  115.  
  116. Personally, I think that the second paragraph above could be amended
  117. with a sentence saying that to avoid eventual misinterpretations due
  118. to lack of appropriate information about character encoding, and to
  119. make the URN transcribable to the widest audience, full %HH encoding
  120. can/should be choosen. We may have to discuss about how strong
  121. this wording should be. But we definitely have to include something
  122. that avoids misunderstandings so that raw 8-bit UTF-8 will never
  123. turn up as such in e.g. iso-8859-1 documents.
  124.  
  125.  
  126. Regards,    Martin.